在本文中,我们研究了神经视频压缩(NVC)中位分配的问题。首先,我们揭示了最近声称是最佳的位分配方法实际上是由于其实施而是最佳的。具体而言,我们发现其亚典型性在于半损坏的变异推理(SAVI)对潜在的不正确的应用,具有非物质变异后验。然后,我们表明,在非因素潜伏期上校正的SAVI校正版本需要递归地通过梯度上升应用后传播,这是我们得出校正后的最佳位分配算法的。由于校正位分配的计算不可行性,我们设计了有效的近似值以使其实用。经验结果表明,我们提出的校正显着改善了R-D性能和比特率误差的错误分配,并且比所有其他位分配方法都大大提高了。源代码在补充材料中提供。
translated by 谷歌翻译
从嘈杂的点云中恢复高质量的表面,称为点云降级,是几何处理中的一个基本而又具有挑战性的问题。大多数现有方法要么直接将嘈杂的输入或过滤器原始正态变为更新点位置。由点云降解和正常过滤之间的基本相互作用的动机,我们从多任务的角度重新访问点云,并提出一个名为PCDNF的端到端网络,以通过关节正常滤波来denoise点云。特别是,我们引入了一项辅助正常过滤任务,以帮助整体网络更有效地消除噪声,同时更准确地保留几何特征。除了整体体系结构外,我们的网络还具有两个新型模块。一方面,为了提高降噪性能,我们设计了一种形状感知的选择器,以全面考虑学习点,正常特征和几何学先验,以构建特定点的潜在切线空间表示。另一方面,点特征更适合描述几何细节,正常特征更有利于表示几何结构(例如,边缘和角落)。结合点和正常特征使我们能够克服它们的弱点。因此,我们设计一个功能改进模块,以融合点和正常功能,以更好地恢复几何信息。广泛的评估,比较和消融研究表明,所提出的方法在点云降解和正常过滤方面优于最先进的方法。
translated by 谷歌翻译
荧光镜检查是一种使用X射线来获得3D对象内部的实时2D视频,帮助外科医生观察病理结构和组织功能,尤其是在干预过程中。然而,它主要是由于低剂量X射线的临床使用而产生的,因此需要荧光镜检查技术。这种脱牙受到了成像对象与X射线成像系统之间的相对运动的挑战。我们通过提出一个自制的三阶段框架来应对这一挑战,从而利用荧光镜检查的领域知识。 (i)稳定:我们首先基于光流计算构建动态全景,以稳定X射线检测器的运动引起的非平稳背景。 (ii)分解:然后,我们提出了一种新型的基于掩模的鲁棒原理分析(RPCA)分解方法,以将探测器运动的视频分离为低级别背景和稀疏前景。这样的分解可容纳专家的阅读习惯。 (iii)denoise:我们终于通过自我监督的学习策略分别降低了背景和前景,并通过双侧时空滤波器将deno的部分融合到最终输出中。为了评估我们工作的有效性,我们策划了27个视频(1,568帧)和相应的地面真相的专用荧光镜数据集。我们的实验表明,与标准方法相比,它在降解和增强效果方面取得了重大改进。最后,专家评级确认了这种功效。
translated by 谷歌翻译
最近,未经训练的神经网络(UNNS)显示了在随机采样轨迹上对MR图像重建的令人满意的性能,而无需使用其他全面采样训练数据。但是,现有的基于UNN的方法并未完全使用MR图像物理先验,导致某些常见情况(例如部分傅立叶,常规采样等)的性能差,并且缺乏重建准确性的理论保证。为了弥合这一差距,我们使用特殊设计的UNN提出了一种保障的K空间插值方法,该方法使用特殊设计的UNN,该方法由MR图像的三个物理先验(或K空间数据)驱动,包括稀疏,线圈灵敏度平稳性和相位平滑度。我们还证明,所提出的方法保证了插值K空间数据准确性的紧密界限。最后,消融实验表明,所提出的方法比现有传统方法更准确地表征了MR图像的物理先验。此外,在一系列常用的采样轨迹下,实验还表明,所提出的方法始终优于传统的平行成像方法和现有的UNN,甚至超过了最先进的监督训练的K空间深度学习方法案例。
translated by 谷歌翻译
动态面部表达识别(FER)数据库为情感计算和应用提供了重要的数据支持。但是,大多数FER数据库都用几个基本的相互排斥性类别注释,并且仅包含一种模式,例如视频。单调的标签和模式无法准确模仿人类的情绪并实现现实世界中的应用。在本文中,我们提出了MAFW,这是一个大型多模式复合情感数据库,野外有10,045个视频Audio剪辑。每个剪辑都有一个复合的情感类别和几个句子,这些句子描述了剪辑中受试者的情感行为。对于复合情绪注释,每个剪辑都被归类为11种广泛使用的情绪中的一个或多个,即愤怒,厌恶,恐惧,幸福,中立,悲伤,惊喜,蔑视,焦虑,焦虑,无助和失望。为了确保标签的高质量,我们通过预期最大化(EM)算法来滤除不可靠的注释,然后获得11个单标签情绪类别和32个多标签情绪类别。据我们所知,MAFW是第一个带有复合情感注释和与情感相关的字幕的野外多模式数据库。此外,我们还提出了一种新型的基于变压器的表达片段特征学习方法,以识别利用不同情绪和方式之间表达变化关系的复合情绪。在MAFW数据库上进行的广泛实验显示了所提出方法的优势,而不是其他最先进的方法对单型和多模式FER的优势。我们的MAFW数据库可从https://mafw-database.github.io/mafw公开获得。
translated by 谷歌翻译
最近,模型驱动的深度学习通过用网络模块替换符号器的一阶信息(即(子)梯度或近端运算符)来拓展到级联网络中的一定迭代算法,该算法呈现出更可说明的与常见的数据驱动网络相比,可以预测。相反,理论上,不一定存在这样的功能常规程序,其一级信息与替换的网络模块匹配,这意味着网络输出可能不被原始正则化模型覆盖。此外,到目前为止,在现实假设下,也没有保证展开网络的全球收敛性和鲁棒性(规律性)。为了弥合这一差距,本文建议在展开网络上提出保障方法。具体而言,专注于加速MRI,我们展开了一个零阶算法,网络模块代表常规器本身,使得网络输出可以仍然被正则化模型覆盖。此外,受到深度均衡模型的理想的启发,在反向化之前,我们执行了展开的迭代网络,以收敛到一个固定点,以确保收敛。如果测量数据包含噪声,我们证明了所提出的网络对嘈杂干扰具有强大。最后,数值实验表明,所提出的网络始终如一地优于最先进的MRI重建方法,包括传统的正规化方法和其他深度学习方法。
translated by 谷歌翻译
建模语义信息对于场景文本识别有用。在这项工作中,我们建议与视觉语义变压器(VST)共同模拟语义和视觉信息。 VST首先从具有变压器模块和主视觉语义对齐模块中的视觉特征映射明确地提取主语义信息。然后将语义信息与视觉特征映射(被视为序列)连接以形成伪多域序列,该伪多域序列组合视觉和语义信息,随后将其馈入基于变压器的交互模块,以便能够在视觉和视觉之间学习相互作用语义特征。以这种方式,可以通过语义信息和反之亦然可以增强视觉特征。可视特征的增强版本通过辅助视觉 - 语义对准模块进一步解码,其与主要一个共享权重。最后,通过获得最终文本预测的第三变压器模块共同处理解码的视觉特征和增强的语义特征。在包括常规/不规则文本识别数据集的七个公共基准测试中的实验验证了我们所提出的模型,在七个基准中的四个基准中达到最先进的效果。
translated by 谷歌翻译
目的:提出一种新的基于深度学习的方法,称为RG-NET(重建和生成网络),用于通过向下采样k空间高度加速的MR参数映射,并同时减少所获取的对比度。方法:所提出的框架包括重建模块和生成模块。在先前的帮助下,重建模块从所获取的少数下采样的k空间数据重建MR图像。然后,生成模块从重建的图像中综合剩余的多对比度图像,其中通过对完全采样标签的监督隐式模型被隐式地结合到图像生成中。在不同的加速率下对膝关节和大脑的映射数据进行评估RG-Net。 Cartilage和大脑的区域T1 \ R {HO}进行了分析,以获得RG-Net的性能。结果:RG-Net以高速加速度为17的高质量T1 \ R {Ho}地图。与仅借出k空间的竞争方法相比,我们的框架在T1 \ R {Ho}值中实现了更好的性能分析。我们的方法还提高了胶质瘤患者T1 \ R {Ho}的质量。结论:提出的RG-NET通过欠采样k空间采用新策略并同时减少快速先生参数映射的对比度,可以实现高加速率,同时保持良好的重建质量。我们的框架的生成模块也可以用作其他快速MR参数映射方法的插入模块。关键词:深度学习,卷积神经网络,快速先生参数映射
translated by 谷歌翻译
在本文中,我们考虑从噪声损坏的$ M $二进制测量恢复$ N $尺寸信号,并在假设目标信号具有低生成内在尺寸,即,目标信号可以通过$ l近似生成。$ -lipschitz生成器$ g:\ mathbb {r} ^ k \ lightarrow \ mathbb {r} ^ {n},k \ ll n $。虽然二进制测量模型是高度非线性的,但我们提出了最小二乘解码器并证明,最多可达$ C $,具有很高的概率,最小二乘解码器实现了急剧估计错误$ \ Mathcal {O}(\ SQRT {只要$ m \ geq \ mathcal {o}(k \ log(ln))$,只要$ m \ geq \ mathcal {o}广泛的数值模拟和具有最先进方法的比较显示了最小的方形解码器对噪声和标志翻转是强大的,如我们的理论所示。通过用正确选择的深度和宽度构造Relu网络,我们验证了(大约)的深生成点,这是独立的兴趣。
translated by 谷歌翻译
端到端模型正在成为误用检测和诊断(MDD)的流行方法。许多实际应用要求的流MDD框架仍然是一个挑战。本文提出了一种名为CCA-MDD的流端到端MDD框架。CCA-MDD支持在线处理,并且能够实时运行。CCA-MDD的编码器包括基于Conv变压器网络的流式声学编码器,并改善了命名的耦合横向(CCA)的改进的横向关注。耦合的横向于预先编码的语言特征集成了编码的声学特征。应用从多任务学习培训的解码器的集合用于最终MDD决策。公开的Corpora实验表明,CCA-MDD可实现可比性的性能,以发布离线端到端MDD模型。
translated by 谷歌翻译